Telegram Group & Telegram Channel
Visual-ARFT: открытый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах и снижает затраты на обучение на 88%

Исследователи обучали модель Qwen2.5-VL двум сценариям:
Агентный поиск: модель планирует, декомпозирует исходную задачу и извлекает информацию из внешних источников для ответа на сложные мультимодальные многошаговые VQA вопросы.
Агентное программирование: модель рассуждает о задаче, пишет и выполняет код для обработки изображений и решения сложных задач визуального анализа.

Visual-ARFT использует модульную систему верифицируемых вознаграждений:
Format Reward учит соблюдать четкий формат выходных данных, включая теги <think>, <search>, <code> и <answer>. Это стимулирует структурированное пошаговое рассуждение и корректное использование инструментов.
Accuracy Rewards оценивают качество ответов, используя F1-score, оценивая семантическое сходство поисковых запросов и выполнимость сгенерированного кода.

На MAT-Coding модель Qwen2.5-VL-7B с Visual-ARFT достигает улучшений +18.56% F1 и +13.00% EM по сравнению с базовой версией, превосходя GPT-4o.
На MAT-Search та же модель демонстрирует прирост +10.28% F1 и +8.66% EM.

Код доступен на Github.

#Stateoftheart



tg-me.com/opendatascience/2308
Create:
Last Update:

Visual-ARFT: открытый метод обучения AI-агентов обходит GPT-4o в мультимодальных задачах и снижает затраты на обучение на 88%

Исследователи обучали модель Qwen2.5-VL двум сценариям:
Агентный поиск: модель планирует, декомпозирует исходную задачу и извлекает информацию из внешних источников для ответа на сложные мультимодальные многошаговые VQA вопросы.
Агентное программирование: модель рассуждает о задаче, пишет и выполняет код для обработки изображений и решения сложных задач визуального анализа.

Visual-ARFT использует модульную систему верифицируемых вознаграждений:
Format Reward учит соблюдать четкий формат выходных данных, включая теги <think>, <search>, <code> и <answer>. Это стимулирует структурированное пошаговое рассуждение и корректное использование инструментов.
Accuracy Rewards оценивают качество ответов, используя F1-score, оценивая семантическое сходство поисковых запросов и выполнимость сгенерированного кода.

На MAT-Coding модель Qwen2.5-VL-7B с Visual-ARFT достигает улучшений +18.56% F1 и +13.00% EM по сравнению с базовой версией, превосходя GPT-4o.
На MAT-Search та же модель демонстрирует прирост +10.28% F1 и +8.66% EM.

Код доступен на Github.

#Stateoftheart

BY Data Science by ODS.ai 🦜






Share with your friend now:
tg-me.com/opendatascience/2308

View MORE
Open in Telegram


Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Date: |

Telegram hopes to raise $1bn with a convertible bond private placement

The super secure UAE-based Telegram messenger service, developed by Russian-born software icon Pavel Durov, is looking to raise $1bn through a bond placement to a limited number of investors from Russia, Europe, Asia and the Middle East, the Kommersant daily reported citing unnamed sources on February 18, 2021.The issue reportedly comprises exchange bonds that could be converted into equity in the messaging service that is currently 100% owned by Durov and his brother Nikolai.Kommersant reports that the price of the conversion would be at a 10% discount to a potential IPO should it happen within five years.The minimum bond placement is said to be set at $50mn, but could be lowered to $10mn. Five-year bonds could carry an annual coupon of 7-8%.

To pay the bills, Mr. Durov is issuing investors $1 billion to $1.5 billion of company debt, with the promise of discounted equity if the company eventually goes public, the people briefed on the plans said. He has also announced plans to start selling ads in public Telegram channels as soon as later this year, as well as offering other premium services for businesses and users.

Data Science by ODS ai 🦜 from ua


Telegram Data Science by ODS.ai 🦜
FROM USA